LLM as a judge
Large Language Model
LLMの評価
評価指標
LLMOps
LLM-as-a-Judge をサーベイする
https://note.com/negi3soaya/n/n4e5640bcb284
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data
https://arxiv.org/abs/2501.08167
LLM as a judge をうまくやるコツは、ジャッジさせる項目と正答を類似度なり正規表現なりで明確に人間の評価と LLM の評価の差分を出して、プロンプトをその差分が小さくなるように調整することだと思う by ぬこぬこさん
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge
https://arxiv.org/abs/2502.12501